Skip to main content

2.9.1 Restrukturere fra tverrsnittsdata til paneldata

Til statistikk og analyser i microdata.no brukes vanligvis datasett opprettet gjennom kommandoen import. Dette er datasett av typen "wide", hvor opplysninger om alle enheter i en populasjon struktureres horisontalt på variabelnivå. Kommandoen reshape-to-panel gjør det mulig å endre datastrukturen til long-format (panel-format), hvor opplysninger om hver enhet struktureres vertikalt på observasjons-/record-nivå.

Variabler som måles over flere tidspunkt og som man ønsker på long-/panel-format, må navngis gjennom reshape-to-panel med angitte prefiks som består av bokstavene (prefikset) fra den opprinnelige variabelen i wide-datasettet. Øvrige variabler som det ikke angis prefiks for, typisk opplysninger som bare måles én gang (kjønn, fødeland etc), defineres automatisk som faste opplysninger og verdiene for disse repeteres for alle undernivåer for hver enhet.

Suffiksene til de opprinnelige "wide"-variablene med repeterende målinger må bestå av heltall. Disse vil danne undernivået til long- / panel-datasettet. Typiske eksempler på suffikser vil være to- eller firesifrede år, eller andre typer tidsangivelser som også peker på måned eller kvartal, f.eks. 201901, 201902 osv. Du står fritt til å velge andre typer suffikser så lenge det består av sifre1. Suffikser av type 1, 2, 3, 4 osv. er også tillatt.

Illustrasjonen nedenfor viser hvordan restruktureringen logisk foregår under panseret. Eksempelet viser et datasett med wide-format som inneholder variablene sivstand18-sivstand20, lønn18-lønn20, og kjønn. Sivilstand (sivstand) og lønn måles altså for årene 2018-2020, mens kjønn er en fast opplysning som bare måles en gang. Datasettet konverteres til long-format ved hjelp av kommandoen reshape-to-panel sivstand lønn. Variabelen date@panel opprettes automatisk og inneholder undernivået som i dette tilfellet er tosifret årstall.

Kommandoen reshape-to-panel har flere bruksområder:

  • Et mer fleksibelt alternativ til import-panel som også lager paneldatasett, men som har en del begrensninger. Blant annet må alle variabler her ha gyldige måletidspunkter for alle måletidspunkter, noe som kan være utfordrende dersom tverrsnittsvariabler inngår i datasettet (variabler som bare har verdier på gitte årlige, kvartalsmessige eller månedlige datoer). Kommandoen reshape-to-panel tillater alle kombinasjoner av variabler.

  • En del analyser krever long-format, og støtten for dette blir nå forbedret. I tillegg har man tilgang til all fleksibilitet og funksjonalitet knyttet til wide-datasett, og kan gjøre hele tilretteleggingen i dette formatet før man enkelt restrukturerer til long-format etterpå. Dette er nyttig om man har behov for å sammenlikne og gjøre operasjoner over variabelverdier på tvers av undernivå (over tid), f.eks. sammenlikne verdien på lønn i 2020 i forhold til 2019.


\rhd Eksempel: Restrukturere datasett fra wide- til long-format

Footnotes

  1. Også tegnet "_" er tillatt, f.eks. "sivstand2019_01_01". Men etter at reshape-operasjonen er fullført, vil tegnet bli fjernet fra undernivåene. F.eks. ved bruk av suffikset "2019_01_01" vil tilhørende undernivå bli endret til "20190101" i det transformerte datasettet.